home *** CD-ROM | disk | FTP | other *** search
/ Freaks Macintosh Archive / Freaks Macintosh Archive.bin / Freaks Macintosh Archives / Phreaking⁄Wardialers / Phreaking texts / FindBugs.txt < prev    next >
Text File  |  1999-01-28  |  8KB  |  143 lines

  1.  
  2. exerpted from -
  3. Science News, feb 26, 1991, vol 139 no. 7
  4.  
  5.                                Finding Fault
  6.  
  7.               the formidable task of eradicating software bugs
  8.  
  9. typed by: Horatio
  10.           (contact at DRU, 8067944362)
  11.  
  12.  this is about half of the article.  the rest went on to describe the unint-
  13.  eresting problems of attempting to design software safeguards for nuclear
  14.  power plants
  15.  
  16. -----------------------------------------------------------------------------
  17. [several paragraphs of intro material]
  18.  
  19.   the software glitch that disrupted at&t's long-distance telephone service for nine hours in january 1990, dramatically demonstrates what can go wrong
  20. even in the most reliable and scrupulously tested systems.  of the roughly
  21. 100 million telephone calls placed with at&t during that period, only about
  22. half got through.  the breakdown cost the company more than $60 million in
  23. lost revenues and caused considerable inconvenience and irritation for
  24. telephone-dependent customers.
  25.  
  26.   the trouble began at a "switch" - one of 114 interconnected, computer
  27. operated electronic switching systems scattered across the united states. these sophisticated systems, each a maze of electronic equipment housed in a
  28. large room, form the backbone of the at&t's long-distance telephone
  29. network.
  30.  
  31.   when a local exchange delivers a telephone call to the network, it
  32. arrives at one of these switching centers, which can handle up to 700,000
  33. calls an hour.  the switch immediately springs into action.  it scans a
  34. list of 14 different routes it can use to complete the call, and at the
  35. same time hands off the telephone number to a parallel, signalling network,
  36. invisible to any caller.  this private data network allows computers to
  37. scout the possible routes and to determine whether the switch at the other
  38. end can deliver the call to the local company it serves.
  39.  
  40.   if the answer is no, the call is stopped at the original switch to keep
  41. it from tying up a line, and the caller gets a busy signal.  if the answer
  42. is yes, a signaling-network computer makes a reservation at the destination
  43. switch and orders the original switch to pass along the waiting call - after
  44. that switch makes a final check to ensure that the chosen line is
  45. functioning properly.  the whole process of passing a call down the network
  46. takes 4 to 6 seconds.  because the switches must keep in constant touch
  47. with the signaling network and its computers, each switch has a computer
  48. program that handles all the necessary communications between the switch
  49. and the signaling network.
  50.  
  51.   at&t's first indication that something might be amiss appeared on a giant
  52. video display at the company's network control center in bedminster, nj. 
  53. at 2:25 pm on monday, jan 15, 1990, network managers saw an alarming
  54. increase in the number of red warning signals appearing on the many of 75
  55. video screens showing the status of various parts of at&t's world-wide
  56. network.  the warnings signaled a serious collapse in the network's ability
  57. to complete calls within the united states.
  58.  
  59.   to bring the network back up to speed, at&t's engineers first tried a
  60. number of standard procedures that had worked in the past.  this time, the
  61. methods failed.  the engineers realized they had a problem never seen
  62. before.  nonetheless, within a few hours, they managed to stabilize the
  63. network by temporarily cutting back on the number of messages moving
  64. through the signaling network.  they cleared the last defective link at
  65. 11:30 that night.
  66.  
  67.   meanwhile, a team of more than 100 telephone technicians tried fantically
  68. to track down the fault.  by monitering patterns in the constant stream of
  69. messages reaching the control center from the switches and the signaling
  70. network, they searched for clues to the cause of the network's surprising
  71. behavior.  because the problem involved the signalling network and seemed
  72. to bounce from one switch to another, they zeroed in on the software that
  73. permitted each switch to communicate with the signalling network computers.
  74.  
  75.   the day after the slowdown, at&t personnel removed the apparently faulty
  76. software from each switch, temporarily replacing it with an earlier
  77. version of the communications program.  a close example of the flawed
  78. software turned up a single error in one line of the program.  just one
  79. month earlier, network technicians had changed the software to speed the
  80. processing of certain messages, and the change had inadvertantly introduced
  81. a flaw into the system.
  82.  
  83.   from that finding, at&t could reconstruct what had happened
  84.  
  85.   the incident started, the company discovered, when a switching center in
  86. new york city, in the course of checking itself, found it was nearing its
  87. limits and needed to reset itself - a routine, maintenance operation that
  88. takes only 4 to 6 seconds.  the new york switch sent a message via the
  89. signalling network, notifying the other 113 swithces that it was
  90. termporarily dropping out of the telephone network and would take no more
  91. telephone calls until further notice.  when it was ready again, the new
  92. york switch signaled to all the other switches that it was open for
  93. business by starting to distribute calls that had piled up during the brief
  94. interval when it was out of service.
  95.  
  96.   one switch in another part of the country received its first messages
  97. that a call from new york was on its way, and started to update its
  98. information on the status of the new york switch.  but in the midst of that
  99. operation, it received a second message from the new york switch, which
  100. arrived less that a hundreth of a second after the first.
  101.  
  102.   here's where the fatal software flaw surfaced.  because the receiving
  103. switch's communication software was not yet finished with the information
  104. from the firest call, it had to shunt the second message aside.   because
  105. of programming error, the swtich's processor mistakenly dumped the data
  106. from the second message into a section of its memory already storing
  107. information crucial for the functioning of the commucations link.  the
  108. switch detected the damage and promptly activated a backup link, allowing
  109. time for the original communication link to reset itself.
  110.  
  111. unfortunately, another pair of closely spaced calls put the second
  112. processor out of commission, and the entire switch shut down temporarily. these delays caused further telephone-call backups, and because all the
  113. switches had the same software containing the same error, the effect
  114. cascaded throughout the system.  the instability in the network persisted
  115. because of the random nature of the failures and the constant pressure of
  116. the traffic load within the network.
  117.  
  118.   although the software changes introduced the month before had been
  119. rigorously tested in the laboratory, no one anticipated the precise
  120. combination and pace of events that would lead to the network's
  121. near-collapse.
  122.  
  123.   in their public report, members of the team from at&t bell laboratories
  124. who investigated the incident state: "we believe the software design,
  125. development and test processes we used are based on solid, quality
  126. foundations.  all future releases of software will continue to be rigorously
  127. tested.  we will use the experience we've gained through the problem to
  128. further improve our procedures."
  129.  
  130.   in spite of such optimism, however, "there is still a long way to go in
  131. attaining dependable distrubuted control," warns peter g. neumann, a
  132. computer scientist with sri international in menlo park, california. 
  133. "similar problems can be expected to recur, even when the greatest pains
  134. are taken to avoid them."
  135.  
  136. [more uninteresting nuclear reactor stuff]
  137.  
  138. -----------------------------------------------------------------------------
  139. EOF
  140.  
  141. thanks go out to everybody in the hack/phreak world who is/was kind enough
  142. to type up a few bytes of information for the education/amusement of all, particularly: cDc, toxic shock, phrack, phun, LOD, NIA, and CUD.    
  143.